AI머신러닝 · 02

특징 추출과 학습 유형

작성자 : Heehyeon Yoo|2026-03-14

# 머신러닝# 특징추출# 전처리# 지도학습# 비지도학습

1. 데이터 표현과 특성

머신러닝 입문에서 자주 놓치는 지점은 모델보다 표현이다. 현실의 객체나 사건은 모델 안으로 직접 들어가지 않는다. 결국 모델이 다루는 것은 숫자 벡터, 범주 값, 토큰, 픽셀처럼 어떤 방식으로든 변환된 특성들이다. 같은 문제를 풀더라도 어떤 표현을 선택했는지에 따라 학습 난이도와 성능이 크게 달라진다.

예를 들어 "사용자의 이탈 여부를 예측한다"는 문제를 떠올려 보면, 모델이 보는 것은 사용자라는 추상적 존재가 아니라 최근 방문 횟수, 평균 체류 시간, 결제 이력 같은 특성의 집합이다. 머신러닝은 현실을 직접 학습하지 않고, 현실을 표상한 표현 공간 위에서 패턴을 학습한다.

이 때문에 특성은 단순한 입력 칼럼이 아니다. 특성은 문제를 학습 가능하게 만드는 번역 결과물에 가깝다. 좋은 특성은 데이터 안에 숨어 있는 규칙성을 모델이 더 짧은 경로로 포착하게 만들고, 나쁜 특성은 반대로 학습을 불필요하게 어렵게 만든다.

2. 전처리와 특징 추출

초반에는 전처리와 특징 추출을 같은 작업처럼 취급하기 쉽다. 둘 다 입력 데이터를 손본다는 점에서는 비슷하지만 목적은 다르다.

전처리는 데이터를 모델이 다룰 수 있는 형태로 정리하는 과정이다. 결측치를 채우고, 문자열을 정리하고, 스케일을 맞추고, 범주형 값을 인코딩하는 작업이 여기에 속한다. 목적은 데이터를 사용할 수 있는 상태로 만드는 데 있다.

반면 특징 추출은 데이터 안에서 학습에 의미 있는 구조를 더 잘 드러내는 표현을 새로 만드는 과정이다. 날짜에서 요일을 뽑아내거나, 텍스트에서 단어 빈도를 벡터로 바꾸거나, 연속적인 신호에서 평균과 분산을 구하는 일은 단순 정리가 아니라 설명 변수를 만드는 쪽에 가깝다.

둘 사이의 경계가 항상 깔끔한 것은 아니다. 스케일링처럼 전처리이면서 동시에 표현을 바꾸는 작업도 있고, 임베딩처럼 특징 추출과 표현 학습의 성격이 겹치는 경우도 많다. 그래도 구분이 필요한 이유는 전처리는 데이터 품질의 문제를, 특징 추출은 문제 표현의 문제를 다루기 때문이다.

3. 지도학습과 비지도학습

머신러닝을 분류하는 가장 빠른 기준은 정답 레이블이 주어지느냐다. 지도학습은 입력과 정답이 함께 있는 데이터를 사용해 예측 함수를 학습한다. 입력 X에 대응하는 목표값 y가 명시되어 있기 때문에 모델은 자신의 예측과 실제 정답의 차이를 계산하며 파라미터를 조정할 수 있다.

반대로 비지도학습은 애초에 y가 없다. 모델은 데이터 내부의 구조, 분포, 군집, 잠재 표현 같은 것을 먼저 찾는다. 정답이 없으니 틀렸다는 신호를 직접 받을 수는 없지만, 데이터가 어떤 모양으로 조직되어 있는지 드러내는 데 강하다.

이 둘을 "쉬운 문제와 어려운 문제" 정도로 나누면 오해가 생긴다. 차이는 난이도보다 목적에 있다. 지도학습은 미래의 값을 맞히거나 입력에 레이블을 붙이는 데 적합하고, 비지도학습은 데이터의 구조를 먼저 이해하거나 정답 없는 탐색을 수행하는 데 적합하다.

4. 회귀, 분류, 군집화

같은 머신러닝이라도 문제 유형이 달라지면 출력 공간이 달라진다. 그리고 이 차이가 곧 모델 선택과 평가 방식의 차이로 이어진다.

회귀는 연속적인 수치를 예측하는 문제다. 집값, 수요량, 온도처럼 결과가 실수 공간에 놓인다. 중요한 것은 값의 크기와 오차의 정도다.

분류는 미리 정의된 범주 중 하나를 선택하거나 각 범주에 대한 확률을 예측하는 문제다. 스팸과 정상 메일처럼 이산적인 라벨 공간을 다룬다. 여기서는 정답을 맞혔는지 여부와 클래스 경계가 핵심이 된다.

군집화는 아예 정답 라벨이 없는 상태에서 비슷한 샘플끼리 묶는 문제다. 이 경우 모델은 "무엇이 정답인가"보다 "무엇이 서로 비슷한가"를 먼저 정의해야 한다. 그래서 회귀와 분류가 예측 문제라면, 군집화는 구조 발견 문제에 가깝다.

회귀와 분류는 출력이 먼저 정의되어 있고, 군집화는 출력 구조 자체를 데이터로부터 찾아야 한다. 뒤에서 다루게 될 클러스터링이 비지도학습의 대표 주제로 분류되는 이유도 여기에 있다.

5. 특징 설계와 문제 정식화

모델은 주어진 표현 위에서만 학습할 수 있다. 어떤 특성을 쓰는지, 정답이 있는지 없는지, 출력 공간을 연속값으로 볼지 범주로 볼지의 선택은 단순한 구현 디테일이 아니다. 문제를 어떤 학습 문제로 정식화할 것인지의 절반을 이미 결정한다.

머신러닝 입문에서 문제 정의와 특성 벡터를 초반에 강조하는 이유도 이 때문이다. 모델은 뒤에 따라오는 구성요소일 뿐이고, 실제로는 어떤 현상을 어떤 데이터 표현으로 번역했는지가 성능과 해석 가능성을 크게 좌우한다.

그래서 머신러닝을 공부할 때는 알고리즘 이름을 먼저 외우는 방식보다 다음 순서로 이해하는 편이 낫다. 무엇을 관측하고 있는가, 그것을 어떤 특성으로 표현할 것인가, 그 문제에 정답이 있는가, 그리고 최종 출력은 수치인가 범주인가 구조인가. 이 네 가지가 먼저 정리되면 이후의 지도학습과 비지도학습은 훨씬 덜 추상적으로 보인다.

문제 정의와 데이터 표현

클러스터링과 상태화